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...эзотерика. 


..прикладная, Miass. 


гч 
д‘ == 
3-0) 


Никто не читает ничего 


е Вы BOT читали abstract доклада? ES 


ВПО: 

* Случались ли собеседования? 

* Случались ли дурацкие вопросы "npo СД”? 
* Ичто вы на них ответили? 

e И где ж вы все ходите?! 
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О чем заявлен доклад 


* Прикладная эзотерика 
Иными словами, все, кроме св. Троицы 
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Терминологическое интермеццо 


* V for Vendetta std::vector 
e М for Mandragera std::map 
° H for Heresy std::unordered map 


e “По-вашему” немного иначе 
* .py —- list, ?, dict 
e ро == Slice, ?, map 
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„Last-minute прозрение, блин 


ο Может, std::map вдруг и есть эзотерика?!... 


* Ну, какое-то бинарное дерево (поиска!) 
* Ну, какое-то там red-black, неважно 
* Ну, какие-то там O(log N), неинтересно 


°...А что такое “эзотерика” -TO? 
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secret, abstruse, recondite, 


what are other occult, arcane, deep, 
words for mysterious, mystic, cryptic, 
esoteric? obscure 


Ёй Thesaurus.plus 


esoteric 


adjective 


UK") /i.seterik/ US 4) / es.a'ter.Ik/ 


ни... 


very unusual and understood ог liked by only а small number of people, 
especially those with special knowledge. 


И чо? 


e {vector, hash) |= “esoteric” 
* да, массам и они непонятны — увы! 
* нет, они очень “обычные” (и при этом ооочень нужны) 


e {fib-heap, seg-tree, ctrie, ...} == “esoteric” 
° При этом ваще никому и даром не нужны!!! 


е (тар, ...} == таки могут оказаться ззотерикой “для Bac" 
e Таки при этом, однако, иногда (иногда) нужны! 


ТА HighLoad 
17 (nie 


...BOT по нужным* 10 шт и побежим 


* — a) ну хоть иногда + 6) ну хоть лично мне + B) your mileage will vary 


..галопом: но доклад “бесконечный” © 


разминка! 


bitmap 


Q1: Как сохранить n=3...17+ шт из [O,R=1024)? 
Q2: И при этом быстро проверять IsThere(x)? 


* Влобно vector<int> vals(0); // дорастет до п 
° Reset() быстрый, Add() быстрый 
e |sThere() нутакое, переборрр 
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bitmap 


Q1: Как сохранить n=3...17+ шт из [O,R=1024)? 
Q2: И при этом быстро проверять IsThere(x)? 


* Битмап vector<uint> bm(R/32); // сразу! 
* |sThere() быстрый, Add() быстрый 
e Reset() нутакое, заливка 1 кбит нулями 
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bitmap 


Q1: Как сохранить n=3...17+ шт из |0,К< 1024)? 
Q2: И при этом быстро проверять IsThere(x)? 
ОЗ: Что, если мы часто эту маску ресетим?! 
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SparseSet 


struct SparseSet ( // sketch 
int п = 0; 
int dense[R]; // uninitialized okay because п 
int sparse[R]; // uninitialized intentionally! 


void Add(int val) 4 
dense[n] = val; 
sparse[val] = п; 
П++; 
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SparseSet 


struct SparseSet ( // sketch 
int n = 0; 
int dense[R]; // uninitialized okay because n 
int sparse[R]; // uninitialized intentionally! 


void IsThere(int val) ( 


return sparse[val] < n && dense[sparse[val]] == val; 


void Reset() { n = 0; } 
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эзотерика есть?! даешь практику 


Почему работает?! 
Зачем надо? 


Чем плохо? 


а зает 


. Где взять? 
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SparseSet 


* Почему работает?! 


заполненные dense/sparse “смотрят друг в друга” 
а в незаполненные мы не ходим! 


int X = sparse[val]; // mb garbage! 

out-of-range мусор X He пройдет sanity check (Х < п) 
in-range мусор X He пройдет "no dense" 

вредная задача со звездой: найдите баги :) 


e ..Что интересно, даже это слишком подробно! 
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SparseSet 


* Почему работает?! 
— “красивый логический трюк npo защиту от мусора”? :) 
— $/ло/ма ... 


e Когда надо? 
- Когда в среднем совсем немного Ада) 


— Когда такая частая куча Reset(), что bitmap-y плохо 
* например, vars liveness sets в компиляторе? 
* например, matched field mask в ЕТ движке? 
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SparseSet 


* Чем плохо (vs bitmap)? 
— Память жрет B 32...64 раза, 32...64 бита вместо 1 бита! 
— Для Range=1024 будет 4...8 кб вместо 0.125 кб 
— Add() таки помедленнее bitmap 
— ...короче, надо вдумчиво тестировать vs bitmap 


* Где взять? 
— хз, может Folly 
— Написать! 
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... написать? really???... ;(( 


google "esoteric" 
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difference-list 


ангаа нвард 


9 
heightmap22 kd- bree 


splay-bree= ὁ. 
lookup = $ ех 


хоп, целый Стэнфорд, но внутри банально... 


BloomFilter 


BloomFilter 


Q1: хотим быстро проверять “есть ли объект” 
Q2: хотим тратить очень мало памяти 
Q3: готовы это делать немного неточно! 
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BloomFilter 


struct BloomFilter ( // sketch 
static const int BITS - 1024; 
Bitmap«BITS» bm; // fixed size, yes yes! 


void Add(Object € val) { 
bm.SetBit(hashi(val) % BITS); 
bm.SetBit(hash2(val) % BITS); 


} 


void IsThere(Object & val) { 
return 
bm.IsSet(hashi1(val) % BITS) 88 
bm.IsSet(hash2(val) % BITS); 
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закрепляем чеклист!! 


а зает 


Почему работает?! 
Зачем надо? 


Чем плохо? 


. Где взять? 
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BloomFilter 


* Почему работает?! 
— Tk. шансы “попасть” во все нужные биты малы 
— Тк. неточный, может ошибиться, false positive 
* Зачем надо? 
— Супер-быстро и супер-компактно MaybeThere() 
— Конкурентов почитай* нету 
— vector<Object> не конкурент!!! (см. супер-компакт) 
— vector<uint> hashes хотя бы надо (и всё равно тей) 
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BloomFilter 


* Чем плохо? 
— Неточный (ну а шо поделать) 
— Можно промазать и будет абсолютно неточный 
— Можно “просто” промазать с размером, nfuncs, итп 
* Нуаты He мажь!!! 
* Где взять? 
— Вероятно, написать! 
— Srsly, погуглил 2 мин, норм “коробок” не нашёл 
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XORFilter 


* Зачем надо? 
— Если надо ешё поулучшить Bloom! 
— Для (относительно) статических данных 
— Поменьше памяти, на ^15% меньше теор-оптимум 
— Побыстрее работает, ^25% быстрее 
* Чем плохо? 
— Медленнее генерируется 
— Неинкрементально обновляется 
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XORFilter 
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ХогЕ ег 


// prebuilt, read-only data for querying 

struct XorFilter { 
int n = 100; 
int fp, 10, h1, h2; // "magic" hashfunc seeds 
char table[155]; // 32 + 1.23 * n 


bool IsThere(Object & val) ( 
char tO = table[hash(val, h@)]; 
char t1 = table[hash(val, h1)]; 
char t2 = table[hash(val, h2)]; 
return hash(val, fp) == to ^ t1 ^ t2; 
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XORFilter 


* Почему работает?! 

— Работает, тк. ПО, h1, h2 “ловко подбираются” 

— Быстрый, тк. меньше (!) вычислений и mem reads 
* Где взять? 


— https://github.com/FastFilter/ 


— Есть для С++, Java, Golang, Rust, Erlang итд итп 
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продолжим по вероятностям 


T-Digest 


* Зачем надо? 
— Быстрая компактная оценка квантилей 
— “Мы льем 10K rps, каковы p50, p99, p87?” 


— Сохранять весь поток, понятно, неохота!!! 
— И даже уник-значений мб много, eg. latency 
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T-Digest 


7.х10-8 


600000 800000 
55 i 


T-Digest 


struct Centroid { 
float mean, weight; 


le 


struct TDigest 
{ 
vector<Centroid> centroids; // just 20@ is quite good! 
int max_size; 
double sum = 0.0, count = 0.0; 
double max = NAN, min = NAN; 
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T-Digest 


e Почему работает? 
— Сохраняем “огрубленный” график DF 
— Сохраняем только “интересные” местам 
— Это и есть T.H. “центроиды” 


—...И как обычно, батчим вставки (скорость!) 
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T-Digest 


* Чем плохо? 
— Может слегка промазать 
* Где взять? 
— https://github.com/tdunning/t-digest 


—..там же и почитать AddBatch(), GetQuantile() 
— ...увы, там по 70-100 строк © 
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HyperLogLog 


* Зачем надо? 
— компактная поточная оценка “кардинальности” 
— “нам влетает 1B штук, хотим approx count distinct()" 
— штука == db row, uniq client IP, (conn src + conn dst]... 
* Но как?! 
— Магия математики!!! 
— Раз, N уникальных uniform значений из {0,1}inf 
— Должны увидеть ~N/24K префиксов 000...1 длиной К 
- Два, хэши унд бакеты 
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HyperLogLog 


struct HyperLogLog { 
static const int BITS - 12; // bits 
static const int REGS - (1 «« b); // ie. 64 "registers" 
char regs[REGS] = (0); // {0} means "all zeroes" 


void Add(Object & val) ( 
uint h = hash(val); 
int j = h >> (32 - BITS); // ie. 26 
int г = LeftmostBit(h << BITS); // 1 based, ie. 1+clz() 
regs[j] = max(regs[j], г); 
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HyperLogLog 


struct HyperLogLog { 
static const int BITS 
static const int REGS 
char regs[REGS] = (0); // 49) means "all zeroes" 


12; // bits 


int64 t GetCount() ( 
double sum = 0; 
for (auto v : regs) 
sum += 1 / pow(2, v); 
return 0.79402 * REGS * REGS / sum; 
} 
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(1 << b); // ie. 64 "registers" 
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HyperLogLog 


* Почему работает?! 
— “потому что математика” 
— Либо оригинальные (и новые!) статьи, Flajolet et al 
— Либо “Кое-что о вероятностных СД”, Ajtkulov, HL'2019 
e Чем плохо? 
— Точности может не хватить (ну те. запросто 2 знач-разряда) 
— Поэтому extreme саге 
* Где взять? 
— Выглядит, что написать (даштоштакое) 
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..бдыщь, "y Стэнфорда” была вторая структура!!! 


SkipList 


SkipList 


• Когда надо? 
— Когда надо “как sorted array/list”, но лучше! 
— Дешевый sorted walk, иначе зачем всё 


— Дешевый Find(), как в sorted array 
* O(log п), дешевле только Unsorted хэш 


— Дешевые Add()/Remove() 
e O(log п) вместо O(n) sorted array, O(1) linked list 


• Основная идея? 
— Linked list базово 
— Рандомизированные (!!!) ”прореженные” lists сверху 
— Получается В$Т без “честного” ребала; в среднем сходится 


ТА HighLoad 
66 (HL) а dd 


SkipList 
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SkipList 
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1^ HighLoad 


SkipList 


а-а 


BEDEBEDEHED 
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1^ HighLoad 


SkipList 
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По-русски говори, когда надо?! 


например... а я не очень знаю, честно говоря ;( 

очень похоже на binary tree, то есть Std::map, нооо... 
говорят (в википедии), Redis ordered sets, MemSQL, etc 
говорят, для threaded (sic) ordered (sic) maps жжот! 

“10x faster than a RWSpinLocked std::set for 1К-1М nodes" 


Где взять?! 


В Java вроде встроено 
В C++ обратно Folly 
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SkipList, BST, (NotSo)ScaryTrees... indexes! 


Группа индексных структур 


std::map (aka red-black BST) 
9 SkipList 
— Тгіе 
— В-Ігее 
— LSM 


Ф всё это тн. “индексы” 

e Надо и К=>\ и range 

* Надо и геад и write 

° ...Обсудим - или сразу завяжем? © 
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Trie 


Trie 


* Когда надо? 
— К=>\ индексы (!) снеким особым балансом 
— Довольно быстрый Find(), рвет многие хэши! 
— Довольно простые в реализации 

Основные идеи? 
— Представим, что ключ это строка (нередко!) 
— Или “а давайте по 26* детишек, не 2 а-ля BST” 
— Или “а давайте схлопывать уровни дерева” 
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Trie 


struct TrieNodel 4 // sketch 

TrieNodel *kids[26]; // because Α-Ζ 

int value - MAGIC NONE; // because 0 is not NULL 
}; 


struct TrieNode2 { // sketch 
TrieNode2 *kids[26]; // because A-Z 
int values[26]; // init with NONEs 
}; 
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Trie 


struct TrieNode3 { // sketch 
vector<pair<char, TrieNode3*>> data; // not Α-Ζ 
vector<pair<char,int>> values; // not (!) in sync 
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struct TrieNodeX 4 
// ...whatever works for you 


}; 
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Trie 


* Чем плохо? 

— Память жрет пушечно!!! 

— O(...) показатели неплохие, но 

— Правильные хэши ещё быстрее, тк. кэш 
* Где взять? 

— Подозреваю, лучше написать (оххх) 

— Больно уж кастомные случаи, увы 
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B-Tree 


В-Тгее 


e Когда надо? 
— K=>V индексы (!) снеким особым балансом 
— Когда собираемся дисковать (и есть кластера) 
ο Основная идея? 
— Очень ветвящееся дерево 
— Минимизируем глубину поиска (тк. seek) 
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В-Тгее 


typedef char Key[13]; // because fu.. 1 mean we can 
typedef float Value; 


struct BtreeLeaf { 

int page type - LEAF; // header magic! 

int used = 0; 

std::pair«Key,Value» data[481]; // 481 is (8192-8)/(13+4) 
}; 


struct BtreeNode { 

int page_type = NODE; // header magic! 

int used = 0; 

std::pair<Key,off_t> kids[389]; // 389 is (8192-8)/(13+8) 
}; 
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B-Iree 


* Чем плохо? 
— Waaagh! Write amplification + seeks 
* [ne взять? 
— BDB (aka Oracle BerkeleyDB) 
— LMDB 
— https://github.com/google/btree 
E МТАААСН! 


— Писать боевое НЕ стОит (waaagh) e 


LSM 


e Когда надо? 
— К=>\ индексы (!) с неким особым балансом 
- Когда много вставок (writes) и мало остального 
— Логи и прочие скорее-архивы 
— Типично тоже на диске, но тоже необяз 
e Основная идея? 
— Батчинг совсем мелочи + sorted runs + linear merges 
- 1 операция = без апдейта дерева на каждый чих 
— 1 вставка = чаше всего дешманский т-тет append! 
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LSM 


// say, upto 1K rows in RAM 
struct L1Chunk 4 
vector«pair«Key,Value»» data; // even unsorted mb ok! 
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// say, upto 32K rows in КАМ 


struct L2Chunk { 
int п = 0; // upto 32K; and should be within Array 


SortedArray«pair«Key,Value»» data; 
Bitmap killed; 
}; 
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LSM 


// say, upto 1M rows chunk on disk 
struct L3ChunkDisk : L2Chunk, L3Meta { 
ҮЙ we 

}; 


// say, always-in-RAM info for that [3 chunk! 
struct L3Meta { 
BloomFilter keys_filter; 
vector«pair«Key,off t»» key blocks; 


ΤΊ 
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omfg, it's all... connected 
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LSM 


e Чем плохо? 
— При перекосе в поиск мб-не-очень 
— Рискуем сходить в отн. много Sorted runs 
— Как обычно, bench bench bench 
* Где взять? 
— Писать явно неохота :) 


— https://github.com/facebook/rocksdb 
— https://github.com/google/leveldb 


— ...и как минимум почитать npo Vinyl статьи 
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это метамаркер (я не планировал сюда успеть) 


(сейчас вы спросите) 


вопросы! 


E 
цэл 
ER 


В чем суть!? 
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Жизнь она интересная 
Жизнь есть и кроме vector, hash, mapj/list 


Вот, мы заглянули одним глазом за забор 

Вот, если (если) вам потребуется, то вы готовы! :) 

Вот, они ж все“ прям несложные, скетчи no 3-10 LOC 
* иначе есть либа, даже от целых Е или G 


Не не не, точно НЕ потребуется никогда? Штош 
Не не не, даже ни половинки ни мелкой идеи? Штош 
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Что эзотерического осталось?! 


* О, еще куда больше! 
— y-fast trees // approx ordered sets // succinct lists 
patricia tries // van emde boas layout & trees // select 
heap // cuckoo hashing // ropes // ctries // minhash 
splay trees // roaring bitmaps // HAT tries // interval trees 


Но вам (и нам) туда скорее не надо 
* Там живут скорее закшвар-драконы-академики C2 
e Тут таки прикладная эзотерика © 
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Что прикладного осталось?! 


e “Нечастые” (непоголовные!) СД 
e Heap // BRIN 


• Нечастые А 
• Quickselect // Perfect hashing // tANS // КММ indexes 


* Нечастые турбо-реализации всякого 
e Ryu // simdJSON // roaring 


...Путь, как обычно, бесконечен (пока не закончится) 
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Нечастые “странные” задачи 


° B-Tree disk index 

* Bitmap limited range set 

° BloomFilter presence estimate 

e Hyperloglog cardinality estimate 

e LSM disk index 

e SkipList concurrent RAM index 
e SparseSet limited range set 

* T-Digest percentile estimate 

• Trie RAM index 

e XORFilter presence estimate 


— Таки 5-6 разных задач (смотря как зачесть индекс) 
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Что пробежали прикладное?! 


97 


B-Tree 
Bitmap 
BloomFilter 
HyperLogLog 
LSM 
SkipList 
SparseSet 
T-Digest 
Trie 
XORFilter 

— Даже если у всех 10/10, я считаю, всё равно успех! 
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...Это ещё не конец (c) 


